05 novembre 2024

Introduction à la bioinformatique en oncologie

Un historique

Detection et analyse des variants par NGS

Applications et analyse du transcriptome par NGS

Analyse fonctionnelle

Quelques banques publiques utiles

  • Génomes, annotations, ontologies

Je me présente

Qu’est ce que la bioinformatique ?

  • Apparition en 1970: B Hesper et P Hogeweg, « Bioinformatica: een werkconcept », Kameleon, vol. 1, no 6, 1970, p. 28–29

La bio-informatique est constituée par l’ensemble des concepts et des techniques nécessaires à l’interprétation informatique de l’information biologique. Plusieurs champs d’application ou sous-disciplines de la bio-informatique se sont constitués (Wikipedia):

  • La bio-informatique des séquences
  • La bio-informatique structurale
  • La bio informatique des réseaux
  • La bio-informatique statistique et des populations

Projet du séquençage du Génome Humain

  • Idée lancée en 1985 par 3 scientifiques, Renatto Dulbecco, Robert Sinsheimer (directeur de UCSC) et Charles DeLisi, qui financera le projet (Directeur dept. de biologie du Département de l’Energie US)
  • Séquençage lancé en 1988 par le National Research Council. En suisse est créé HUGO (Human Genome Organisation) pour la coordination.
  • En 1998, Craig Venter, crée Celera Genomics avec pour objectif le séquençage en 3 ans par séquençage Shotgun et le brevetage du génome (!).
  • En 2000, la complétion du séquençage est annoncé pour le Consortium et Celera Genomics (match nul) par le président B. Clinton. Coût: 3 Milliards de dollars.
  • Celera Genomics avouera avoir utilisé les données du Consortium pour son propre assemblage, mais reproduira un séquençage de Novo 3 ans plus tard…
  • Publication des séquences brutes en 2001 et des séquences finales en 2004.

Différentes technologies de séquençage

  • Le séquençage par Shotgun ou Sanger: (Faible Débit): C’est la méthode mise au point par Sanger pour le séquençage de génomes de virus et popularisée ensuite par Craig Venter pour le séquençage initial du génome humain.

  • Le séquençage de nouvelle génération (Next-Generation Sequencing-NGS): (Haut Débit) Le NGS désigne l’ensemble des méthodes apparues en 2005 pour la production de millions de séquences (Le pyroséquençage, qui a donné le séquenceur Roche 454).

Ressources nécessaires pour le séquençage d’un génome humain:

  • 2000: 3M$, 13 ans d’efforts à un consortium international
  • 2015: 1 machine: 1000$, 3 heures

NGS pour le diagnostic en cancérologie

  • Aujourd’hui, le séquençage est utilisé en routine pour la gestion des patients atteint de cancer.

  • La diminution des coûts de séquencage et l’évolution de la technologie a permis de couvrir des régions génomiques plus grande et donc de tester des panels plus élaborés.

  • La tendance actuelle en diagnostique est l’utiisation de panels, considérés actuellement plus fiables (profondeur de séquençage supérieure) et plus efficaces en termes de coûts.

  • Le challenge futur consistera à la mise au point de nouveaux outils bio-informatiques pour assister les biologistes dans l’analyse de variants.

Applications concrètes en cancérologie

  • Applications à visée diagnostique pour la clinique: analyse de panels de gènes pour l’étude de mutations constitutionnelles et tumorales.

  • Recherche de mutations à visée de recherche: Analyse de panels larges ou d’exomes (complet) à visée de découverte.

  • Un grand nombre de patients peuvent être analysés simultanément et rapidement.

  • L’analyse bioinformatique consiste à aligner les séquences sur le génome de référence et à quantifier les changements par rapport à ce génome (variants) par l’applications de méthodes statistiques.

  • L’analyse biologique consiste ensuite à évaluer la pathogénicité de ces variants à l’aide de connaissances biologiques préalables (Bases de données).

Principe du séquençage Shotgun

Principe du séquençage par Capture

Principe du séquençage par Amplicon

Principe du NGS

Echelles en fonction de l’application

vers une industrialisation du séquençage

Détection de variants (SNPs) par NGS: QQ définitions

  • SNP: Single Nucleotide Polymorphisms: Changement d’un simple nucléotide

  • InDEL: Insertion-DELetion: Insertion ou délétion d’une séquence jusqu’à 50 nucléoïdes.

  • CNV: Copy Number variation: Variant Structurel de plus de 1kB (Autre algorithme de détection)

SNP (Single Nucleotide Polymorphism)

  • Définition : Un SNP est une variation de simple nucléotide dans une séquence d’ADN. Cela signifie qu’un seul nucléotide (A, T, C ou G) est remplacé par un autre.

  • Fréquence : Les SNPs sont très courants dans le génome humain et représentent la variation génétique la plus répandue.

  • Exemple : Si dans une séquence d’ADN on a un “A” à un endroit donné chez une personne, un autre individu peut avoir un “G” à ce même endroit.

  • Effet : Les SNPs peuvent être neutres (n’ayant aucun effet), ou bien influencer l’expression des gènes, la fonction des protéines, ou la susceptibilité aux maladies. Certains SNPs sont également utilisés comme marqueurs génétiques pour étudier l’héritabilité de traits et de maladies.

InDELs (Insertion/Deletion)

  • Définition : Un InDEL est une variation où une ou plusieurs paires de bases d’ADN sont soit insérées (ajoutées) soit supprimées (délétion) dans une séquence d’ADN. Les InDELs peuvent être de petite taille (1-50 paires de bases) ou plus grandes.

  • Exemple : Si une séquence originale est ATGCGT, une insertion pourrait donner ATGCCGT, et une délétion pourrait donner ATGT.

  • Effet : Les InDELs peuvent provoquer un décalage du cadre de lecture (frameshift), surtout dans les gènes codants, ce qui peut aboutir à des protéines non fonctionnelles. Cela peut être lié à des maladies génétiques ou des traits spécifiques.

CNV (Copy Number Variation)

  • Définition : Un CNV est une variation où des grandes portions de l’ADN (plus de 1 kb) sont présentes en copies supplémentaires ou manquantes par rapport au génome de référence. Cela implique une duplication ou une délétion de segments d’ADN, souvent beaucoup plus grands que les Indels.

  • Exemple : Une personne peut avoir trois copies d’une région spécifique d’un chromosome, alors que la plupart des gens en ont deux (une copie de chaque parent).

  • Effet : Les CNVs peuvent affecter plusieurs gènes et ont un impact majeur sur l’expression des gènes, car ils augmentent ou diminuent la quantité d’ADN codant disponible. Ils sont associés à divers troubles génétiques, comme le syndrome de Down (duplication d’un segment sur le chromosome 21), et à d’autres traits et maladies complexes.

  • Détection: ils sont détectes par des algorithmes plus complexes que les SNPs et InDELs.

Détection de variants (SNPs) par NGS: Départ

Détection de variants (SNPs) par NGS: Alignement

Détection de variants (SNPs) par NGS: Détection

Détection de variants (SNPs) par NGS: Type/VAF

Détection de variants (SNPs) par NGS: Résumé

But: recherche de mutations dans des gènes d’interêt pour poser un diagnostique sur un patient.

Etapes de l’analyse bioinformatique:

  • Contrôle Qualité sur les données brutes (Obligatoire!)
  • Alignement des reads sur le génome de référence
  • Appel de variants (Recherche des SNP et INDELS)
  • Annotation et production d’un fichier VCF et d’un compte-rendu
  • \(VAF= Variant AlleleFrequency = \frac{N (Reads Mutés)}{Profondeur}\)

Analyse de panels: Exemple du panel Constitutionnel INCa

Quelques définitions: les Reads

Quelques définitions: Couverture et profondeur

Quelques définitions: le Phred

Contrôle Qualité par FastQC

Production des VCF (Variant Calling Files)

Visualisation sous IGV

Annotation des variants

Une fois les SNP et INDELS obtenus, il est nécessaire de les interpréter pour générer un rapport d’analyse.

Pour cela, nous utilisons un annotateur de variants. Ce type de programme permet de faire des annotations au niveau des gènes et donc de retrouver les gènes à partir des bases de données RefSeq, Ensembl, etc…

Il en existe des libres (Annovar, SnpEff) et des commerciaux (Alamut)

Les principales bases de données que l’on peut utiliser pour l’annotation sont:

  • 1000 Genomes Project
  • GnomAD
  • COSMIC…

GnomAD

La base de données Genome Aggregation Database est une base développée à l’intention de la communauté scientifique et médicale pour l’annotation de séquences humaines.

Elle contient les fréquences alléliques de variants strucuraux dans différentes populations pour plus de 76000 génomes (pour hg38) et 10000 génomes (pour hg37) ayant été séquencés dans le cadre d’analyses de maladies rares et de cancers.

Référence: Karczewski, K.J., Francioli, L.C., Tiao, G. et al. The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581, 434–443 (2020). https://doi.org/10.1038/s41586-020-2308-7

1000 genomes project

C’est un catalogue de variations génétiques communes (existantes dans au moins 1% de la population) obtenues à partir de donneurs sains, constituant une ressource de référence utilisée par la communauté biomédicale.

Ce catalogue est accessible à travers l’International Genome Sample Ressource.

  • Il est continuellement maintenu et mis à jour avec les dernières versions du génome humain et des données provenant de nouvelles populations.

  • A ce jour, il contient des variants pour 2504 individus obtenus dans 26 populations.

  • Il n’y a aucune donnée phénotypique ou médicales associée.

Référence: A global reference for human genetic variation, The 1000 Genomes Project Consortium, Nature 526, 68-74 (01 October 2015) doi:10.1038/nature15393.

The Catalog of Somatic Mutations in Cancer

URL: https://cancer.sanger.ac.uk/cosmic Cette base constitue une ressource pour l’exploration de l’impact des mutations somatiques dans les cancers.

Il contient des données traitées manuellement associées à des panels de gènes ciblés. Elles sont disponibles sur les versions hg37 et hg38 du génome humain.

Les données consistent en un catalogue de mutations liées à 1.4 millions de tumeurs obtenues à partir de 26000 publications. Les données sont associées à des meta-données (facteurs environnementaux et historique des patients).

Référence: COSMIC: the Catalogue Of Somatic Mutations In Cancer. John G Tate et al. Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D941–D947, https://doi.org/10.1093/nar/gky1015

Production du compte-rendu scientifique

Pour le diagnostique: Le compte-rendu est UNIQUEMENT fait sur les gènes prescrits.

Rappel des étapes bioinformatiques avec des exemples d’outils

  • Contrôle Qualité (FASTQC)
  • Alignement sur le génome de référence (BWA ou SubRead)
  • Trimming des séquences adptatrices (Triommomatic)
  • Visualisation des données (Read, SNPs) (IGV - Integrative Genomics Viewer)
  • Détection des mutations (VarScan ou SNPDetect)
  • Annotation des variants (Annovar ou SnpEff)

Rappels sur les extensions de fichiers

  • Fichiers de séquences brutes: .Fastq (Compressé en zip: .Fastq.gz)
  • Fichiers de séquences alignées .BAM
  • Index de fichiers de séquences alignées .BAI
  • Génome complet au format FASTA: .fa
  • Fichiers listant les mutations/INDELS: .vcf ou .txt

Conclusion de cette partie

  • L’utilisation du NGS en oncologie permet d’augmenter le débit d’analyse.

  • L’analyse bioinformatique fait partie intégrante du processus global de détection des variants.

  • A terme: disparition du séquençage ciblé type Sanger. Celui-ci est actuellement encore utilisé pour la confirmation des résultats.

  • Perspectives: vers la plateforme France Médecine Génomique 2025

  • Voir le projet des 100,000 génomes du NHS.

  • Utilisation de l’IA pour assister les biologistes dans l’annotation des variants.

Autre application: Analyses NGS du Transcriptome en oncologie

Analyse RNA-seq - principe

Analyse de l’expression des gènes = le Transcriptome. C’est une grandeur dynamique.

Technologie à haut débit précédente: les puces à ADN. Technologie basée sur le NGS: Le RNA-seq

Le NGS appliqué à l’analyse du transcriptome permet:

  • Une meilleure concordance entre plateformes
  • Une forte sensibilité et meilleure dynamique
  • Toutes espèces, toutes régions transcrites
  • Une variété d’applications (Analyse diférentielle, analyse de l’épissage alternatif, analyse des gènes de fusion, séquençage de novo)
  • Oncologie: classification moléculaire des tumeurs

Mais…: Complexité et coût calculatoire accrus = pipeline bioinformatique plus complexe par rapport aux microarrays.

Exemple d’application: recherche de gènes différentiellement exprimés

Application à la comparaison du transcriptome traité/Non traité dans des cellules humaines.

Découverte de classes de cancers par analyse non supervisée

Exemple de la découverte des sous types moléculaires dans le cancer du sein (Sørlie, Perou et al, PNAS 2001).

Déroulement d’une analyse RNA-seq appliquée à la découverte de gènes différentiellement exprimés

  • Séquençage
  • Contrôle qualité
  • Alignement sur génome de référence
  • Quantification des valeurs d’expression (comptage)
  • Analyse différentielle entre conditions expérimentales (supervisé) et/ou clustering hiérarchique (non supervisé)
  • Visualisation des données (“diagrammes de chaleur”, “volcano plots”).
  • Analyse fonctionnelle des gènes (Analyse d’enrichissement)

Alignement et comptage des séquences: Départ

Alignement et comptage des séquences: Alignement

Alignement et comptage des séquences: Comptage Exons

Alignement et comptage des séquences: Comptage Gènes

Contrôle Qualité par FastQC

Alignement sur le génome de référence par STAR

Analyse différentielle

L’objectif est d’établir quels sont les gènes différentiellement exprimés entre plusieurs conditions expérimentales, par exemple, un contrôle et un traitement. C’est une analyse supervisée.

Pour cela, un test statistique est utilisé. Rappel: un test statistique est la vérification d’une hypothèse nulle H0.

Visualisation des résultats sous forme de diagramme thermique

Analyse différentielle EdgeR

EdgeR est un programme qui effectue un test statistique sur les comptages bruts pour identifier les gènes différentiellement exprimés.

Il n’a pas besoin de normalisation des données en amont, son modèle statistique gère les différences ente échantillons non imputables aux différentiels d’expression.

On peut normaliser les données à part pour générer une matrice de comptage à des fins de visualisation (heatmaps).

Exemple de résultat obtenu avec EdgeR

Autre exemple d’application: détection de gènes de fusion

Objectif: Recherche de gènes de fusion, c’est à dire de nouveaux gènes produits de fusion obtenus par délétion et réarrangement du transcriptome.

Exemple le plus connu: Le gène BCR-ABL. C’est le produit d’une translocation entre le chromosome 22 (gène ABL) et 9 (gène BCR), appelée Chromosome de Philadelphie, est un marqueur de Leucémie Myéloïde Chronique.

Ce chromosome est une aberration qui n’est pas héritée et qui n’est pas transmissible à sa descendance.

Analyse fonctionnelle

Après avoir identifié une liste de gènes d’interêt (par exemple après une analyse différentielle), nous cherchons à obtenir la fonction biologique des gènes présents dans cette liste.

Deux manières de procéder:

  • Parcourir la liste “à la main” et faire une recherche dans la littérature pour chaque gène… long et fastidieux!

  • Utiliser les annotations des gènes pour décrouvrir les fonctions moléculaires ou pathways représentés par ces gènes: -> Faire une Analyse d’enrichissement fonctionnelle. On peut ensuite retourner vers la littérature.

Analyse fonctionnelle par enrichissement GO

Elles sont basées sur deux composantes:

  • Elles utilisent une Ontologie (vocabulaire contrôlé et stable mis en place par le Gene Ontology Consortium ou autre (Kyoto Encyclopedia of Genes and Genomes, KEGG)).
  • D’où l’utilisation fréquente du raccourci (Enrichissement GO)
  • Elles sont basées sur un Enrichissement Fonctionnel associé à une validation statistique par Test Hypergéométrique.

Qu’est ce qu’une ontologie ?

Une ontologie est l’ensemble structuré des termes et concepts représentant le sens d’un champ d’informations, que ce soit par les métadonnées d’un espace de noms, ou les éléments d’un domaine de connaissances.

Application au génome: Gene Ontology (Gene Ontology Consortiumhttp://www.amigo.org). 3 ontologies ont été définies.

  • Biological Process
  • Cellular Component
  • Molecular Function

Exemple d’annotation

Gène TP53

Annotations par un vocabulaire contrôlé.

Analyse fonctionnelle par enrichissement: principe (1)

Analyse fonctionnelle par enrichissement: principe (2)

Test d’enrichissement GO

Une catégorie C de gènes regroupe n gènes sur le total de N présents dans le génome. La fréquence de départ de cette catégorie est \(F = n/N\).

Nous avons ensuite obtenu un cluster de \(k\) gènes significativement exprimés ou sous-exprimés, dont p appartiennent à la catégorie C.

la fréquence de la catégorie C dans ces gènes est \(f = k/p\).

L’enrichissement Fonctionnel de la catégorie C est défini comme \(e(C)=f/F\).

Le test d’enrichissement doit répondre à la question: L’enrichissement est-il statistiquement significatif par rapport à un tirage au hasard? Une pratique courante est de le faire par l’application d’un Test hypergéométrique.

Exemple de résultat

Banques de données publiques NCBI

Il s’agit de Dépôts de données liées à des publications répondant à des standards minimum de conservation et de reproductibilité de l’information, et contenant des données brutes de puces à ADN et de NGS.

L’information stockée permet la reproductibilité de l’expérience Leur usage est exigé pour publication (Numéro d’accession).

Dépôts spécialisés:

Bases d’annotations utiles

Autres services NCBI

PubMed:

http://www.ncbi.nlm.nih.gov/pubmed

  • Recherches par auteur, années, titre, contenu du résumé
  • Recherche par publications en lien
  • Possibilité d’ouvrir un compte utilisateur NCBI (Recherches favorites, Recherches automatisées)
  • Un grand nombre de publications sont accessibles librement (PubMed Central)

Petit Quizz

  • En analyse NGS, la bioinformatique et l’infrastructure bioinformatique ne sont que peu ou pas importantes face au séquençage lui-même: (Vrai/Faux)

  • Remettre dans l’ordre les phases d’analyse de variants suivantes:

    • Alignement
    • Détection des mutations et Production des VCFs
    • Visualisation
    • Annotation des variants
    • Contrôle Qualité
  • Faire correspondre les logiciels suivants à ces différentes étapes:

    • BWA
    • IGV
    • Annovar
    • Varscan
    • FastQC

Merci de votre attention